网络首发 | 生成式智能出版的应用场景、风险挑战与调治路径
网络首发时间
2023-07-17
网络首发地址
https://kns.cnki.net/kcms2/detail/42.1085.G2.20230717.1104.003.html
Photo by Martin Martz on Unsplash. |
张新新
上海理工大学出版印刷与艺术设计学院,上海,200000
黄如花
武汉大学信息管理学院,武汉,430072
目的 | 意义 | ChatGPT及生成式人工智能技术的“ 出圈”催生了生成式智能出版新业态。围绕生成式智能出版进行多维探索,揭示其应用场景、风险挑战及调治路径。 | |
研究设计 | 方法 | 立足生成式人工智能技术的技术应用原理及其应用特征,探索生成式智能出版的应用场景、风险挑战和调治路径。 | |
结论 | 发现 | 生成式智能出版的应用场景包括出版大数据与大规模语言模型、升维发展的智能知识服务,智能决策的出版领域智能机器人、生成式智能出版物、元宇宙出版新业态五类,面临数据来源和输出、学术伦理规范、核心价值坚守、人类职业的替代性等方面的挑战,并从调节和治理出发提出了相应的调治路径。 | |
创新 | 价值 | 面对生成式人工智能技术加持的数智时代,探讨其对出版的赋能作用及其深层次影响,对推动出版高质量发展、现代化发展具有重要意义。 | |
关键词 | ChatGPT; 智能出版;生成式人工智能;智能出版调治;数字出版;元宇宙出版;人工智能生成内容 |
随着ChatGPT跻身史上用户增长速度最快的互联网应用程序,生成式人工智能(Generative AI)技术以其卓越的算法、算力和数据优势,迅速成为社会关注的焦点和热点,并将长远而深刻地影响着传媒、教育、营销、咨询、翻译等行业。
生成式AI技术作用于出版流程内部,推动着专业生成内容(professional generated content, PGC)走向人工智能生成内容(artificial intelligence generated content, AIGC),人工编校走向人机协同编校,按需印刷和智能印厂场景进一步丰富以及出版营销效率、动力和质量变革。生成式AI技术作用于出版外部,将会催生一系列智能出版新产品、新业态和新模式,同时也面临着数据、版权、价值等多方面的风险和挑战,因此需要在分析场景创新、识别风险挑战的基础上,进一步提出生成式智能出版的调节路径和治理路径。
1 生成式智能出版的多维应用场景 |
分析式AI主要发力于对现有事物的解释、呈现、表达与推荐方面,能够提高用户的智能化体验,目前应用于新闻出版领域的AI技术多为分析式AI。生成式AI,旨在生成新的信息、数据和知识,可以生成文字、图片、音频、视频、3D模型、虚拟环境等多模态内容。较分析式AI,生成式AI在通往赋予机器智能化的道路上实质性地迈出了一大步,使机器产生了智能化的自主思维与意识。
分析式AI技术已创造出诸多智能出版应用场景,如出版大数据、智能知识服务、增强现实(augmented reality,AR)智能出版、虚拟现实(virtual reality, AR)智能出版、在线教育智能化。随着生成式AI技术的深层次应用,这些智能出版场景将会得到进一步的丰富、深化或拓新,并推动众多新的应用场景出现,如图1所示。
图1 生成式智能出版的多维应用场景 |
1.1 出版大数据与大规模语言模型
缺乏数据的喂养和训练,再好的强化算法技术也无法催生ChatGPT等生成式AI产品,海量数据语料库是生成式AI技术勃兴的前提、基础和底座。ChatGPT等生成式AI产品的研发过程,给予出版业的重要启示首先在于重视数据建设,把数据作为生产要素、作为新能源、作为推动出版业高质量发展的新动能。
数据要素是指对客观事物的性质、状态及关系进行记录的物理符号或符号组合,是未经加工的数字和事实,大数据语境下对数据的使用重在强调相关关系;信息则是指经过处理、专题化的数据,于出版业而言,信息服务也能构成一种专业的出版知识服务模式;知识则是经过实践检验被证明是正确的信息。随着大数据时代的到来,数据作为一种生产要素,其重要性越来越受到重视,但出版业对数据要素的认知、理解和运用还有较大的提升空间。正如《大数据时代》的作者所述,(西方国家)出版社“没有把书籍的数据价值挖掘出来,也不允许别人这样做。他们没有看到数据化的需求,也意识不到书籍的数据化潜力”。同样,我国出版业在数据要素配置方面也存在数据理念缺失、数据思维薄弱、数据价值挖掘不充分、数据产业链缺位、数据治理缺失等问题。
基于生成式AI技术,未来出版业的数据应用场景至少包括:其一,出版内部数据资料库建设,再造一个网络版出版机构。通过对出版社历史上的每一本书、每一位作者、每一位用户等进行数据化处理,积累丰富的内容数据、用户数据和交互数据;进而通过数据的调取、识别、再现,架构出版社内部的数据池,构建起一个由内容数据、用户数据、交互数据构成的数字化出版企业。其二,垂直型知识服务大数据建设。在完成出版社内部数据建设的基础上,通过数据交换、数据共享、增量数据建设等方式,不断扩充数据规模,逐步形成可以服务垂直领域的知识服务大数据,如法院出版社的法信大数据、知识产权出版社的DI Inspiro大数据等。其三,面向出版领域的大规模语言模型(large language model, LLM)建设。对此,须充分发挥重大文化产业项目带动战略,用好文化产业、出版业的宏观调控体制优势,从国家层面着手启动旨在维护意识形态阵地安全、文化安全和内容安全的出版业LLM工程:一方面,筹建包含中文书籍、报刊、网络百科等在内的超大规模语料集,并聘请出版专家进行少量、高质量的人工标记语料集建设;另一方面,可在国内LLM的基础上,通过对出版语料集的训练,运用基于人类反馈的强化学习算法,确保模型输出内容在表达方式、安全性、价值观方面与主流意识形态相适应。
1.2 升维发展的智能知识服务
此前笔者在《出版+人工智能: 未来出版的新模式与新形态》一文中提及“智能知识服务”,着重论及知识计算等关键技术,以及涵盖几十亿实体规模的跨领域、跨学科、跨媒体、多数据类型的知识图谱构建;后续笔者在国家标准《新闻出版知识服务知识资源建设与服务工作指南》最后一条专门提出“智能知识服务”,即“以人工智能技术为依托,借助大数据开展知识体系构建、知识计算、知识图谱构建,开展机器撰稿、新闻推荐、智能选题策划、智能审校、智能印刷、智能发行、智能机器人等服务方式”。
不难看出,之前论述或规定的“智能知识服务”,主要强调基于分析式AI技术的应用,如新闻推荐、知识体系构建、知识计算等,以及基于浅层次的生成式AI技术应用,如机器撰稿等。其所提供的知识服务主要是采取“提问-检索-适配-推送”的基本逻辑,没有体现AI生成的逻辑;智能知识服务的“智能”也主要体现在基于知识计算的隐性知识推导和知识服务,没有触及提供知识产品、信息服务和知识解决方案的机器本体“智能”问题。一言以蔽之,其还停留在传统知识服务的阶段。
ChatGPT兼具人类自然加持和大规模复杂系统的涌现能力,重塑了知识服务的生命形态,也对传统知识服务造成降维式打击。作为知识服务提供商,与其被动地被降维打击,倒不如主动拥抱新技术、积极应用新技术,做到知识服务的升维发展。在生成式AI技术的推动、影响和启发下,智能知识服务至少包含以下几层含义。
一则,围绕“知识体系”进行逻辑建构。知识体系的重要性越来越凸显,宏观来看,无论是哲学、自然科学抑或社会科学,其学科体系、学术体系和话语体系的构建归根到底要推进自主知识体系建设,持续推动理论、知识和方法的创新。从生成式AI视角进行微观分析,ChatGPT之所以获得认可,除了其采用了基于人类反馈的强化学习算法、更加适人化的输出方式外,更重要的是发现了知识元之间的逻辑关系、形成了思维链,从而能够实现内容的复杂推理。而知识元之间的逻辑关系,是知识体系构建的核心内容。因此,未来智能知识服务的中心任务便是构建更为全面、更加科学、适用范围更广的知识体系,包括基于海量语料库的归纳式构建和基于书籍、百科网站的演绎式构建。
二则,围绕“智能”创设应用场景。知识服务的“智能化”是未来知识服务发展的关键所在。知识体系的自动构建,数据、信息和知识的自动生成,用户知识问题解决方案的集成式创新解答,图文声像影、3D模型、虚拟环境等多模态知识需求的全方位回应,视、听、味、嗅、触等联觉体验的智能推送,等等,这些或可成为未来智能知识服务的努力方向和重要发力点。
三则,由“检索推送”走向“生成解答”。根据用户提问,在已有知识库中进行检索,而后推送给用户以解答知识问题的“检索推送”范式将成为历史。取而代之的是根据用户提问、自主生成满足用户知识需求的 “生成解答”范式。这也意味着以往基于感知智能的“产品驱动型、信息驱动型、政策驱动型、技术驱动型”的知识服务模式将逐步被智慧驱动型知识服务模式所取代,意味着人类智慧与AI的高度协同、深度融合,将推动智慧驱动型知识服务模式向生成式智能驱动型知识服务的方向升级和迈进。
四则,知识服务主体的人机协同。且不论法律或规则层面的主体含义,至少在事实层面,智能知识服务的主体不再限定在“人”“法人”的范围内,而是延伸至AI或机器。解决用户知识问题的答案,即数据、信息或知识,不再简单由人类直接提供,而是AI在语料库的基础上进行集成式创新、整合式创新而予以提供的。简言之,即“ AI生成答案以解决知识问题需求”。由此,人类和机器共同作为知识服务主体,以人机协同、人机融合的方式提供知识服务,满足人们学习、求知、阅读等需要,已然是不争的事实。
1.3 智能决策的出版领域智能机器人
智能机器人是行为智能的代表。新闻出版业的智能机器人,在机器人实体、传感器、效应器和执行器层面都有其特殊性,须充分结合内容产业的优势和特点,重点在控制器的语音知识库和交互功能方面发力。
在以分析式AI为代表的时代,智能机器人以礼仪机器人、智能盘点机器人、智慧图书馆的智能管理机器人等形态在图书馆领域得到广泛应用。新闻领域主要以撰稿机器人形态出现,如国外华盛顿邮报的Heliograf、美联社的WordSmith以及纽约时报的blossom等;国内新华社的“快笔小新”、腾讯的 Dreamwriter(梦幻写手)、第一财经的“ DT 稿王”、今日头条的“张小明”等。出版领域的应用,则包括智能销售机器人、智能教育机器人和智能仓储机器人等。
ChatGPT等生成式AI产品的推广和普及,将智能出版由分析式智能出版推向生成式智能出版的发展阶段,也使得新闻出版领域的智能机器人再次获得难得的发展机遇。具体来讲,生成式智能将推动出版领域智能机器人实现以下两方面的应用场景创新:(1)控制器的决策功能将进一步优化。控制器作为机器人的大脑,决定着机器人的自主行为,是机器人“思维”“决策”功能的主要承载仪器。较出版机构以往主导研发的教育机器人、科普机器人,海量语料集、LLM的成功运用,使出版领域的智能机器人可以在控制器层面有效调动在线知识库,调用LLM的数据和算法,从而起到更好的人机交互效果,更好地满足用户的学习、教育、听读等方面的知识服务需求。由此也推动出版领域智能机器人控制器的研发路径由“内置式知识库”范式转向“在线版LLM”范式。这种研发路径的转向,将极大地提升出版领域智能机器人的认知、思维和决策能力,在质的层面提高出版领域智能机器人的决策功能、交互功能和用户体验感。(2)出版领域智能机器人应用场景多元化、立体化拓展。众人耳熟能详的是,绘本阅读机器人、早教机器人、智能销售机器人等多元智能机器人已在出版业崭露头角。但生成式AI技术到来之前的出版领域机器人,呈现出千篇一律、虚有其表的短板,往往侧重于简单的故事、儿歌、诗歌等内容的普及以及较低程度的语音交互功能应用。今后,随着前述出版大数据和出版领域LLM的建设与发展,智能教育机器人的语音知识库将会以LLM的身份出现,知识问答、课程资源查询、高水平人机交互等功能将会更上一层楼。知识服务机器人将成为出版领域智能机器人应用的下一个风口,垂直领域的海量语料库+LLM,将实质性推动知识服务机器人提供数量更多、服务更专业、获取更便捷的知识问答与检索服务,从而使得知识服务机器人成为智能出版的新产品和新业态。此外,智能销售机器人,可以根据读者个性化、定制化的图书需求,基于语料库和LLM,生成更加专业、更有针对性的图书情报、宣传广告,从而为读者提供体验感更佳的图书推荐和营销服务。
1.4 生成式智能出版物
生成式智能出版物,是指应用生成式AI技术的出版产品,是融合AI和人类智慧的出版产品。生成式智能出版物,一方面是指基于AIGC的智能出版产品或服务,如世界上首本由AI创作而成的实验小说――《1 The Road》,再如前述由微软小冰、ChatGPT和其他AIGC应用所创作的诗歌、论文、专著、绘画、音乐作品等;另一方面,也指人机共生、人机协同语境下研发的智能出版产品服务,如法院社的《智慧办案手册》,有道AI机器翻译、人工团队审核修订的《极简区块链》图书等。生成式智能出版物的创作、生成由AI全部完成、主要完成或参与完成,但是,后续的编校印发各环节仍然离不开人类智慧,离不开出版编辑的时间、精力和智慧付出。
鉴于AIGC集成性创新特征突出、语料库的价值观烙印以及自然人用户个性化服务的优势,从未来发展趋势来看,生成式智能出版物,可在以下几个方向发力。
1.4.1 翻译类出版物
ChatGPT等生成式AI产品往往拥有多种语言的海量语料库,由此,多语种之间翻译、转换、生成和输出优势极为明显,据悉AI翻译一本20万字的图书仅需花费数十秒的时间。未来的出版业态之中,翻译作品可先经由生成式AI翻译,再辅以人工审核校对,这样便可大大提高翻译质量和效率,甚至可以做到图书原著和翻译作品的同步出版、同时上线。
1.4.2 汇编类出版物
某种程度来讲,就特定专业、特定学科、特定领域的具体知识问题而言,AIGC所能提供的信息、数据、知识或解决方案,其质量、规模、数量和效率远远高于大部分人类专家。换言之,ChatGPT等生成式AI产品,能够根据目标用户的知识需求,基于海量语料集的数据优势,运用强化学习算法,辅以超强算力支持,围绕特定知识点或知识体系在最短的时间内形成远超人类的集合性、整合性输出内容,且这些输出内容是经过AI的学习、理解、推理而得出的,不只是简单的材料堆砌、知识罗列。由此,文献综述、知识点集成、百科出版等汇编类出版物将成为生成式AI技术的重要发力点,成为生成式智能出版物的示范性场景。
1.4.3 大众出版物
文学、诗歌、小说等大众出版已然成为AI创作的先行领域。通过自然语言理解、自然语言生成以及基于人类反馈的强化学习等技术运用,AI已经可以围绕给定主题,在写作风格、语法结构、格式韵律等方面实现自由调度,并开展想象式、开创性的创作。可以遐想的是,为数更多的、饱含人类情感的AI文学、小说、诗歌等文艺类大众作品将以生成式智能出版物的面貌展现在世人面前。
此外,值得一提的是,生成式智能出版还无法在短时期内覆盖所有出版领域。鉴于ChatGPT等由国外主导研发的AIGC产品容易引起“意识形态偏见、意识形态渗透、文化价值观认同危机以及出版意识形态把握危机”,教育出版类图书、主题出版类图书,暂不宜采用AIGC,即使应用AIGC,也需要进行严格的审核和把关,确保以人类智慧驾驭AI、以主流价值驾驭算法数据。
1.5 元宇宙出版新业态
元宇宙出版,是指元宇宙系统中的出版,即由数字孪生人、虚拟出版业、虚实融合出版、脑机知识服务等所构成的数字世界的出版。在元宇宙中,或曰元宇宙出版系统中,孪生数字人是主体性力量,数据、信息、知识是运行基质,数字技术是建构和运行逻辑。
AIGC的出现和普及,为元宇宙出版新业态提供了必需的数据、信息、知识等基质,提供了孪生数字人的 “思维”“决策”能力,还进一步提供了作为元宇宙出版动能、运行逻辑的智能化数字技术。
在运行基质方面,生成式预训练转换模型(generative pre-trained transformer 4,GPT4)等LLM可为元宇宙出版源源不断地输入期刊、书籍、百科等万亿级的单词语料,经过数据清洗后,可进一步形成数万亿级甚至百万亿级的无标注文本数据。这些海量的数据、信息和知识,为元宇宙的构建、运行提供了必备的生产要素和基础设施,并且基于海量语料和强化学习技术,AI可进一步生成新的内容,由此形成数据、信息和知识的再生产、循环生产机制,为元宇宙出版持续、稳定、健康地运行奠定数据基础。
在运行主体方面,虚拟数字人或孪生数字人的感知、认知、决策、执行和控制能力将进一步增强。GPT4等LLM较为成功地解决了感知智能上升到认知智能的难题,是通往通用人工智能(artificial general intelligence,AGI)的关键,也实质性地为数字人的智能问题提供了技术解决方案。同时,基于人类反馈的强化学习算法的成功运用,为自然人和数字人之间的数据同步、表达同步、输出同步难题提供了更有效率的攻克之道。
在运行动能方面,GPT4的超强算力为元宇宙出版的实质运行提供了基本支撑和维系动力。GPT作为一种基于互联网可用数据训练的文本生成深度学习模型,能够有效地支撑“海量数据—强化学习—适人化生成内容”的系统运行,从而为构建元宇宙出版虚拟空间数字人“感知—认知—决策(生成)—行为”的运行模式提供有益借鉴。
2 生成式智能出版面临的风险挑战 |
生成式智能出版新业态的出现无疑扩充了出版的应用场景和发展可能,也不断为数字出版的创新发展输入了强大的驱动力。然而,这并不意味着生成式智能出版总是能发挥正向的赋能作用。事实上,其在应用过程中不可避免地面临着诸多风险和挑战,这是生成式AI技术在设计、开发、应用过程中受诸多因素综合影响所致。对这些风险的准确识别和挑战的及时应对,是发挥生成式智能出版应用场景正价值赋能的应有之义,也是技术向善理念在出版领域的必然要求。
2.1 数据来源和输出风险
数据风险是生成式AI技术应用到各行各业都会遇到的风险,这种风险涵盖了数据来源、训练、组织和输出的整个环节,既包括数据来源风险、数据训练风险,也存在数据输出环节的风险。囿于篇幅限制,本文仅就来源、输出两个环节的风险予以分析。
数据来源的风险,是指构成ChatGPT训练集的数据类型、规模、语种等本身对输出结果的科学性、合理性、权威性的基础性、根本性风险。数据来源风险具体可细化为以下几个方面。
(1)“数据获取侵权、数据内容违法、虚假信息吸收” 影响最终输出结果的真实性和合法性,例如语料集涉及个人隐私、商业秘密等方面的数据如被恶意使用或过度使用,则容易引起内容生成违法性的问题。
(2)数据挖掘不受限,通过深层次推理和思维链技术,推导出数据背后的信息可能关系国家安全。事实上,当前技术“无法完全过滤种族歧视或仇恨言论,同样埋下国家安全隐患”。同时,关键领域公开出版物的数据化,如对重要能源矿床、矿产地等图书知识进行标注、计算和输出,存在泄漏国家能源安全的风险。
(3)LLM语料库在语种、国家、类型等方面的不均衡分布,将导致输出内容存在偏见、偏差,如ChatGPT所使用的语料集主要是英语语种,所输出内容的西式价值观烙印很深。
(4)数据时效性不强,所训练和输出的主要是过时数据,也会影响输出内容的真实性、准确性和科学性。如ChatGPT所使用的数据主要是2021年以前的数据,而对于最新的数据、信息和知识的摄入则处于缺失、缺位状态,故而无法解答时效性强的问题。
(5)在LLM的使用过程中,客户故意做出错误、误导性或有倾向性的提问或提示,“提示语混入恶意指令,会绕过安全机制,执行预想外指令”,导致泄露信息数据、输出有毒有害内容等。
在数据输出环节,LLM容易生成不良信息、有害信息、虚假信息或违法信息,进而引起“技术及伦理风险、虚假信息风险、版权争议” 等通用风险。同时,受到群体倾向性的影响,会输出“政治正确”话语,如对特定人物、事件的数据分布不均致使产生舆论误导、倾向性内容输出的风险,一个有意思的例子是ChatGPT愿意为拜登作诗颂扬,但拒绝为特朗普撰写。
2.2 学术伦理规范的挑战
实践中已经出现了学生使用ChatGPT撰写学术论文、完成课程作业的案例,由此衍生出隐蔽型的学术不端问题,并对学术伦理和学术道德规范产生影响。“此类违反学术道德的行为不仅会侵蚀学生独立的科研能力,而且会影响学术界整体的公平公正性,因此 ChatGPT已受到了多所教育机构的明文限制”。
对论文投机者而言,AIGC无疑降低了论文炮制、抄袭的成本,并提供了更多便利。通过所谓的“整合性”创新所输出的内容,需借助多位作者的联合鉴别,且无法做到阻止隐蔽型学术不端行为的发生。这种对学术伦理规范行为的挑战,需要引起高度重视,并及时进行建章立制予以规范。教育界、学术界、教师和学生则需协同协作,应用“机器审核机器”等更高水平AI审核技术加以监督、杜绝。
2.3 核心价值坚守的挑战
前述AIGC数据来源和输出的风险、对学术伦理规范的挑战,尚且属于浅层次的风险挑战。长期使用 AIGC、尤其是ChatGPT等国外LLM,其深层次的风险是冲击、削弱或混淆主流意识形态和价值观念,最终引起核心公共价值失灵的风险。“如果核心公共价值由于政策制定过程中的缺陷而被限制,或者没有足够的手段确保核心价值观的衔接和有效的沟通,或者由于聚合价值的过程出现扭曲,那么公共价值失灵就有可能产生”。
尽管当被问及“ ChatGPT坚持什么样的价值判断?有无自己的核心价值观”时,它给出的回答是:ChatGPT是一个纯粹的语言模型,它并没有自己的价值观,也不会主动进行价值判断。ChatGPT生成的回答是基于大量的文本数据训练得出的统计规律,它只是根据给定的输入生成对应的输出,并不会对文化安全、意识形态安全造成威胁。但是,笔者仍然认为使用国外LLM,其致使核心公共价值失灵的风险是客观存在的,且这种风险的发生是一个长期的、潜移默化的过程:一则,ChatGPT语料库多数为西方数据库,英语语料占比最大,其中新闻报道、图书期刊等语料资源不可避免地带有意识形态偏见,含有误导、诋毁甚至是抹黑我国主流意识形态的内容。二则,基于人类反馈的强化学习算法的运用,目标是输出和人类的认知、需求和价值观相一致的内容。而这里的“价值观”对ChatGPT来讲,默认是西式价值观,而非社会主义核心价值观。三则,正因为ChatGPT生成的回答是基于大量的文本数据训练得出的“统计规律”,而这个“统计规律”恰恰是建立在西方语料、西方价值基础之上,喂养、训练的数据是带有西式价值观烙印的,其输出的内容也不可避免地含有意识形态偏见或倾向,无论用户是否发现,也无论ChatGPT是否正面回应。
2.4 人类职业的替代性隐忧
AI对人类职业的替代是一个长期存在的隐忧,几乎每次在AI取得里程碑式的进步时,与之相关的各行各业都会思考这个问题。
简言之,ChatGPT将会直接影响文本相关工作的职业,如文字编辑、翻译、新闻记者等。客观地讲,简单的文本处理职业将会消失,交由生成式AI应用来完成,如邮件自动回复、客观事实报道、客服咨询和电话热线解答等。但是,AI无法胜任原创性特征明显、原始性创新起主导作用的复杂文本处理工作,也因此无法取代人类完成该类工作。
未来职业的替代性问题,需转换视角,以共生视角去思考可能更为适宜。相当多的职业,更有可能会以人机协同、人机融合、人机共生的方式出现,人类智慧和AI的有机融合模式,或是以人类为主、机器协助,或是以机器为主、人类协助。
3 生成式智能出版的调治路径分析 |
面对上述风险与挑战,生成式智能出版无疑需从调节和治理两个路径出发加以防范与应对。
3.1 生成式智能出版的调节路径
数字出版调节,是指出版系统吸收内化数字技术,调整自身产业链各环节及相关领域,以形成有序或高级有序的结构或状态,包括产业链调节、主体调节、项目调节和制度调节等基本范畴。生成式智能出版的调节路径亦可从上述基本范畴出发加以思考。
其中,生成式智能出版的产业链调节是由产品调节、技术调节和运维调节所构成的调节体系。具体而言:
生成式智能出版产品调节,须以内容建设为根本,充分发挥出版业内容资源优势,将出版内容与生成式AI技术有机融合,研发出适销对路的生成式智能出版产品,如前所述的出版大数据、智能知识服务、智能机器人、生成式智能出版物以及元宇宙出版产品等。为适应生成式智能出版的发展趋势,数字出版产品调节须主动推进数字化、数据化、智能化建设。其中,数字化是前提,数据化是关键,智能化是结果。历经二十余年的发展,我国数字出版产品的分析式智能化取得了阶段性成果,如AR/VR出版物强化了内容呈现的临场感,再如出版大数据根据用户画像对出版物的精准营销和算法推荐等。未来数字出版产品的生成式智能化发展,人机协同研发数字出版产品,人类智慧与AI的融合,是不可逆的趋势。
生成式智能出版的技术调节,是数字出版、智能出版产业链调节的重中之重,是生成式智能出版能否成为数字出版新业态、新模式的关键所在。具体而言,生成式智能出版的技术调节,须在数据、算法和算力三方面着力:
其一,确立出版数据生产要素的地位,夯实出版数据底座。出版业的智能化发展,离不开对数据要素市场的培育,离不开对出版业数据服务系统的构建,离不开包含数据建设、共享、开发、应用、维护在内的一体化数据治理体系的建立。提高出版业数据要素生产效率,可从以下几个方面推进:(1)确立数据理念。将数据视为生产要素,制定并落实“以数据为关键要素,以数据赋能为主线,以价值释放和创造为核心,对产业链上下游的全要素数字化转型、升级、重塑和再造” 的出版业数字化战略。(2)推动数据赋能。建构和践行出版业数据价值体系,挖掘和实现出版业“图书价值、数字化价值、数据化价值” 三位一体的价值体系。(3)完善数据流程。根据数据采集、数据清洗、知识标引、数据计算、数据建模、知识图谱、二次数据挖掘等数据服务流程,建立和优化出版业、出版社数据服务体系。这方面,人民法院出版社的“法信”大数据平台堪称典范。(4)建立健全出版语料库。在无标注文本数据方面,构建万亿级超大规模、超高质量、门类齐全的语料库和数据池,涵盖各行业、各学科和各领域;组织出版专家开展高质量的有标注的文本数据建设,至少建立数万符合人类偏好的标注数据。
其二,引入深度学习算法技术,探索LLM应用。第三次AI热潮的兴起,AlphaGo、元宇宙、ChatGPT等成为AI的里程碑,是大数据、深度学习算法以及超强算力综合作用的结果。因此,要深入推进智能出版,健全生成式智能出版产业链,就需要重视并应用深度学习技术。在深度学习技术采纳、应用和创新流程方面,出版企业宜:(1)基于长期主义理念,遵循技术转换式创新规律,制定科学合理的技术创新战略,引进强化学习、迁移学习等突破性技术资源。(2)构建企业内部高新技术跨越动力体系,保持出版企业在技术应用和创新方面的战略定力和韧性,通过项目申请或自主投入等方式给予耐久性、持续性财务承诺,推动出版企业穿越深度学习技术基础研究和商业应用之间的“死亡之谷”。(3)抓住技术跨越的机会窗口,形成长期、合理、稳定、可持续的商业模式,将路径转换式创新所得来的深度学习技术应用转化为新的路径依赖式创新,从而顺利完成深度学习技术的路径转化式技术蛙跳。在LLM应用方面,科研实力较强、资金雄厚的大型出版集团,可以考虑联合计算机、出版领域的科研单位,构建中文为主、涵盖多国语言的预训练语料集,辅以人工标注数据,通过预训练语言模型的训练、奖惩模型的训练以及基于强化学习进行语言模型优化,最终形成服务于宣传思想文化、服务于出版业的LLM。
其三,树立算力意识,提升智能出版新的生产力。算力,即计算能力,是指数据采集、传输、标引、关联、计算和存储等能力。算力是数字化、智能化服务的核心,是数字经济、数字出版、智能出版发展的新动能和新引擎。整体而言,出版业算力意识较为薄弱,还没有意识到智能出版时代算力如同电力一样,将成为数据挖掘、模型训练的基础支撑和核心引擎。大多数出版企业对算力的理解尚且停留在服务器购置、机房建设、云服务等具体事宜层面,没有对算力的内涵、构成、应用和影响形成全面、科学的认知。生成式智能出版的发展,迫切要求出版业确立算力意识,提升计算能力和存储能力,认知、理解并及时应用云计算、边缘计算、终端计算等技术,以进一步夯实出版业数智化转型的基础。
生成式智能出版的运维调节,需在智能出版的运营和维护环节,积极应用生成式AI技术,以提升智能出版产品服务的营销效能和维护质量。具体而言,出版营销的征订单、宣传文案、新书发布会方案等,可首先借助AI加以生成,辅之以出版营销编辑的审核、修改和确定,从而起到减少人力资源投入、提高出版营销效能的积极作用。出版客服、售后等运维工作,尤其是数字出版等线上客服工作,可交由生成式AI来优先承担,在智能语音解答不能满足用户需求时,再转交出版营销编辑来接手;或在非工作时间交由生成式AI 承担,以发挥生成式AI技术的新生产力作用,保障劳动者的工作权、休息权等合法权益。另外,还可结合虚拟数字人技术,研发承担出版营销推广任务的孪生数字人或虚拟数字人,自动生成、播放或讲述出版营销的AIGC文案,实时进行人机语音交互,在元宇宙、云展览、云演艺等场景实施出版产品和品牌的营销推广。
生成式智能出版的主体调节,是指数字出版编辑在原有的政治素质、出版专业能力之外,自觉提升自身数字素养与技能,形成“由数字化适应力、数字化胜任力、数字化创造力所构成的三位一体的编辑数字素养体系和数字技能体系”,以适应生成式智能出版发展的需要,适应出版业智能化、高质量发展的需要。总体而言,数字出版编辑应自觉提升数字素养与技能,培养数字意识、计算思维、终身学习能力、网络文明与道德修养以及社会责任感,使自身成为合格的数字公民。具体来讲,应提高自身的数字化适应力,主动确立数字化理念,强化数字化思维,适应数字化工作岗位,掌握和运用数字知识尤其是AI相关知识和技术;应不断增强自身的数字化胜任力,在学习、理解、运用生成式AI技术的基础之上,胜任生成式智能出版产品服务策划、研发等技术应用以及基于生成式AI的出版营销工作;应培养和锻造自身的数字化创造力,基于数字知识、技术和智慧,着力推动出版领域的生成式AI技术的创新应用,引领和带动生成式智能出版产品、运营、模式、业态和管理等全方位的创新。
此外,生成式智能出版调节路径还包括积极申报和实施重大文化产业项目,以重大项目、重大工程为抓手、为杠杆,切实推进生成式AI技术在出版业的落地、应用和推广;还包括建立健全生成式AI技术应用的制度体系,营造出鼓励、支持和包容生成式智能出版发展的氛围和环境。
3.2 生成式智能出版的治理路径
上述调节路径,旨在从市场一侧推动生成式智能出版的发展,推动生成式智能出版新产品、新业态、新模式不断涌现,推动AIGC技术原理与出版业的应用场景深度融合;而治理路径,则旨在发挥保障和规制作用,应对生成式AI技术的风险与挑战,确保生成式AI技术发挥正价值,坚持技术向善,确保生成式智能出版在健康、稳步、可持续、高质量发展的道路上不断前行。具体而言,包括以下几个方面。
维护意识形态安全,坚持以主流价值导向驾驭算法程序。如前所述,ChatGPT等AIGC产品深层次的风险挑战是冲击、削弱或混淆主流意识形态和价值观念。因此,生成式智能出版的首要治理路径在于坚守意识形态阵地,确保意识形态安全,坚持以核心价值观引领生成式AI出版产品和服务行为,确保生成式智能出版产品和服务蕴含正确的核心价值观,以起到潜移默化、春风化雨式的培养、教育和践行效果。出版主管部门宜在相关的部委规章或管理办法中明确提出符合主流意识形态、体现核心价值观的相关规定。同时,在具体行政行为方面,可在新媒体采编、报纸、期刊、图书质量检查中,增加关于生成式AI服务监督和检查的规定,确保所提供的生成式智能服务符合主流意识形态,与核心价值观保持一致。
推进法律治理,确保生成式智能出版在法律规则内运行。在立法层面,主管部门宜根据《网络安全法》《数据安全法》《个人信息保护法》《出版管理条例》等法律和行政法规,制定部委规章、地方政府规章或规范性文件,以指导生成式AI出版服务。在执法和司法层面,对利用生成式AI提供服务,但危害国家安全、意识形态安全、文化安全、侵害知识产权、损害人格权等违法犯罪行为,要坚决予以惩处。在守法层面,提供生成式AI服务的平台和个人,要遵守相关法律规定,坚持技术向善,发挥技术正价值,做负责任的创新主体。同时,广大用户、版权协会、出版协会等发现AIGC有违反法律规定、社会公德、商业道德的情形时,可行使监督权,向有关部门予以举报,以确保网络空间的风清气正,确保生成式智能出版服务健康有序发展。
有效实施重大文化产业项目带动战略,适时研发中文知识本体为主的LLM。实施宏观调控举措,发挥重大文化产业项目带动效应,有助于从举国体制的高度来解决生成式AI的经营和管理问题。构建中文知识本体为主的语料集和LLM,是化解意识形态和文化安全风险,应对国外生成式AI服务挑战的有效举措和 “国之大者”。对构建生成式智能出版的语料集、LLM等关键难题,可通过文化产业发展专项资金、国有资本经营预算金、国家出版基金等渠道设立重大项目或重大工程来予以攻克。
坚持标准先行,建立、健全、宣贯和落实生成式智能出版标准。一如《出版物AR技术应用规范》《出版物VR技术应用要求》对出版业AR/VR技术应用的规制,《出版物AIGC应用要求》等行业标准、团体标准和企业标准体系也亟待建立和完善。在内容上,该类标准宜包含AIGC的建议性规定、禁止性规定,明确利用生成式AI技术开展智能出版产品服务的流程、角色和职责,规范用户、平台、社会组织在生成式智能出版服务提供过程中的行为等。同时,生成式智能出版标准体系的宣传贯彻、落地培训和反馈考评机制也有待建立并迫切需要在出版业落地实践。
最后,提升数字治理能力,以数字治理提升出版治理效能。数字治理是数字出版治理的一项基本原则,是一种新型治理方式和手段,也是数字社会的全新治理范式,其治理要点在于以数据治理为重点,善用数字技术工具,不断提升企业微观治理效率和行业宏观治理效能。生成式智能出版的数据治理,包含对语料集、LLM中的数据内容、数据类型、数据时效等全方位的管理和监督,也包含对内容数据、用户数据和交互数据的建设与使用。同时,行业级的数据治理平台和企业级的数据治理平台也有待建立,以切实在出版治理实践中发挥应有作用和价值。
4 结语 |
或许,当笔者提及生成式智能出版这一概念时,尚有部分学界或业界同仁觉得为时过早。但回首2017年底左右发表的《出版+人工智能:未来出版的新模式与形态》《出版+人工智能:智能出版流程再造》两篇文章,其中提到的AR出版、VR出版、知识服务、出版大数据等智能出版场景均已落地并在产品、技术、标准等方面取得了一系列成果,成为新兴出版最有活力、最具潜力的组成部分。
抱以未来学的视角,生成式智能出版会在出版大数据、LLM、高维度智能知识服务、出版+ 智能机器人、生成式智能出版物以及元宇宙出版等新产品、新业态和新场景方面取得实质性突破。在硬币的另一面,生成式智能出版也同样面临着数据来源和使用风险、学术伦理挑战、核心价值观坚守挑战甚至是人类职业的替代性隐忧。为此,本文提出了确立出版数据生产要素地位、探索LLM应用、树立算力意识,以及强化数字出版编辑素养和技能等数字出版调节路径,指出了以主流价值驾驭算法程序、推进法律治理、实施重大项目带动、研制应用生成式智能出版标准以及提升数字治理效能等数字出版治理路径。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
王淳洋
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 生成式智能出版的技术原理与流程革新
网络首发 | 生成式人工智能治理行动框架:基于AIGC事故报道文本的内容分析
网络首发 | AIGC介入知识生产下学术出版信任机制的重构研究
网络首发 | 子代教育水平、反哺途径与老年人数字接入鸿沟
网络首发 | 基于扎根理论的数字反哺机制探析 ——以子代的视角